iT邦幫忙

2023 iThome 鐵人賽

DAY 30
1
自我挑戰組

SRE 照書養系列 第 30

Day 30 - SRE 照書養:錯誤預算的構建與好處

  • 分享至 

  • xImage
  •  

今天是完賽日(歡呼),但是書肯定是要繼續努力看的吧!目標是把第三章讀完!這裡是今天讀的原文出處:Embracing Risk,那我們就開始吧!

書中提到為了做出基於數據的決策,可以通過制定服務水平目標(SLO)來共同建立季度錯誤預算。錯誤預算提供了一個明確的指標,用以確定服務每個季度能接受的不可靠性,這樣的好處有兩個:

  • 有效提供團隊在談判過程中的依據,解決各持已見的僵局
  • 實際在線時間則通過監控系統進行量化

上述二者之差就是季度中剩餘的錯誤預算。此預算允許我們受控地進行新版本發佈。

錯誤預算的主要優勢在於,它能激勵產品開發和 SRE 團隊之間找到創新和可靠性之間的平衡點。許多產品通過這種方式調節發佈速度:只要系統符合 SLO,就可以繼續發佈新版本,否則則需要投入更多資源來提高系統的彈性。

像這種簡潔的開 / 關機制其實還有更加精細的運用方式。例如,預算充足時,可以承擔更多風險。預算接近耗盡時,產品開發團隊可能會自動增加測試、放慢發佈速度或回退到上一版本,避免用盡預算和影響項目上線。如果產品開發團隊希望節省測試時間或提高發佈速度,這時候 SRE 團隊可以提出反對意見,而錯誤預算就可以作為決策導向。

錯誤預算還能幫助我們發現過高的可用性目標,並顯示這對靈活性和創新速度的影響。如果發佈新功能困難,或許可以降低 SLO(從而增加錯誤預算)以提高創新速度。

後記

今天了解了「錯誤預算恰好可以在 SRE 和產品開發團隊間調整激勵、強化共同責任,從而更為有效地處理相關風險」。最後不免俗的來一點小心得!沒想到真的能寫到 30 天,這 30 天真的是裸賽,不過由於我的題目是有書可以參考,所以相對來說比其他同事挑戰難度低一些。提到同事就來感謝一下同事,感謝同事安安給的勇氣,讓我來報名參賽,也感謝同事路線一路陪寫到今天,如果大家有興趣也可以去逛逛兩位的文章唷!那就下次見拉!鐵人賽!掰噗!


上一篇
Day 29 - SRE 照書養:使用錯誤預算的目的
系列文
SRE 照書養30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言